智能论文笔记

Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies

Tim Seyde , Igor Gilitschenski , Wilko Schwarting , Bartolomeo Stellato , Martin Riedmiller , Markus Wulfmeier , Daniela Rus

分类：机器学习 | 人工智能 | 机器人

2021-11-03

连续控制的强化学习（RL）通常采用其支持涵盖整个动作空间的分布。在这项工作中，我们调查了培训的代理经常更喜欢在该空间的界限中普遍采取行动的俗称已知的现象。我们在最佳控制中汲取理论联系，以发出Bang-Bang行为的出现，并在各种最近的RL算法中提供广泛的实证评估。我们通过伯努利分布替换正常高斯，该分布仅考虑沿着每个动作维度的极端 - Bang-Bang控制器。令人惊讶的是，这在几种连续控制基准测试中实现了最先进的性能 - 与机器人硬件相比，能量和维护成本影响控制器选择。由于勘探，学习和最终解决方案纠缠在RL中，我们提供了额外的模仿学习实验，以减少探索对我们分析的影响。最后，我们表明我们的观察结果概括了旨在模拟现实世界挑战和评估因素来减轻Bang-Bang解决方案的因素的环境。我们的调查结果强调了对基准测试连续控制算法的挑战，特别是在潜在的现实世界应用中。

translated by 谷歌翻译

联合学习（FL）是一种分布式机器学习技术，可以在避免明确的数据共享的同时进行协作模型培训。 FL算法的固有保护属性使其对医疗领域特别有吸引力。但是，如果有异质的客户数据分布，则标准FL方法是不稳定的，需要密集的超参数调整以实现最佳性能。常规的超参数优化算法在现实世界中的FL应用中是不切实际的，因为它们涉及大量的培训试验，而计算预算有限，这些试验通常是不起作用的。在这项工作中，我们提出了一种有效的增强学习（RL）的联合次数超参数优化算法，称为自动FEDRL，其中在线RL代理可以根据当前的培训进度动态调整每个客户的超参数。进行了广泛的实验以研究不同的搜索策略和RL代理。该方法的有效性在CIFAR-10数据集的异质数据分配以及两个现实世界中的医学图像分割数据集上进行了验证，用于胸部CT中的COVID-19变病变分段，腹部CT中的胰腺细分。

translated by 谷歌翻译